リアルタイム インテリジェンスの現状 [セッションレポート] #GoogleCloudNext
概要
「What's new for real time intelligence」というタイトルのセッションに参加してきました。
企業がどの程度リアルタイムのデータを活用できているか、またはそのメリットについて実感しているかなどの現状に触れてから、Google Cloudにおけるデータ活用についてディープダイブしていきます。
3人が入れ替わるスタイルのセッション方式だったので、見応えがありました。
また、45分間ぶっ続けで話を聞くため、要所を絞って印象に残った話を紹介し、なるべく話を要約しながら書きたいと思います。(翻訳を使用しているので、違和感がある箇所はご容赦ください。)
セッション内容
80%以上の企業が意思決定にBIツールを使用
80%以上の企業が企業の意思決定にBIツールなどを使用し、データを利活用している模様。
その中で、近年は機会学習を用いた取り組みも多く、その組み合わせにより発展したデータの活用が推進されている。
ただ、リアルタイムインテリジェンスはほんの一瞬のチャンスでしかないと登壇者のSachin氏はいいます。
リアルタイムインテリジェンスを質の高い意思決定に活かすことが本来の目的になるからです。(手段が目的になってはいけない的なものと理解しました)
80%以上の会社が投資対効果を実感し、62%の会社が効率性と生産性の向上を実現させ、98%のもの企業が顧客満足度の向上が図れたとのことです。
例えば、ストリーミング処理であればいつでも在庫の数や店舗の状況を確認できるため、それだけでもビジネスの効率性が向上します。
よってこの辺りでは、IoTの活用により、ビジネスは大きく変革したと言っておりました。
さまざまなデータの活用
データの活用はもちろんリアルタイムのストリーミングだけに限らず、バッチ、 機械学習、変換処理などさまざまなステップを用いることにより、最適な結果をもたらすとのこと。
さらに、構造化、半構造化、非構造化などの全てのデータを統合的なデータシステムにまとめて、リアルタイムデータと組み合わせることでさらに発展した活用ができる。
Googleはこのような中でさまざまなOSSシステムや、パートナー企業と協力することにより、プラットフォームの成長を続けていると述べておりました。
Real Time Intelligenceのゴールデンパス
画像は、Google CloudネイティブでReal Time Intelligenceを構築する時のゴールデンパスとして紹介されていました。
ゴールデンパスの流れ
グローバルに分散された受け口のあるpub/subから、バッチ/ストリーミングにも対応するDataflowでETLを実施し、BigQueryで保管します。
必要に応じて、VertexAIで機械学習を取り入れデータ自体を予測したり、またそれぞれの結果をBIツールであるLookerで可視化し、企業の意思決定につなげるという流れです。
この一連のパイプラインで紹介されているサービスたちは、Google Cloudを知る上でとても重要となるので、今後、データ分析やマシンラーニングの試験を受ける方も覚えておいて損はないはずです。
また、この流れで強く説明されていたのが、データとAIは深い関係でつながっているということでした。
投資回収期間
わずか6ヶ月の投資回収期間で生産性を向上させ、コストが削減されているということが証明されている、と言います。
画像をまとめると、
- 55%:開発者の生産性向上
- 50&:ストリーミングのためのインフラコストの削減
- 6ヶ月:投資回収期間(回収までの月)
- 171%:投資収益率
この資料だけを見ると、データを利活用している企業とデータを活用していない企業の差は歴然に思えます。
また、もし既存のパイプラインが存在するのであれば、Google Cloudのパイプラインに置き換えることで、そのインフラコストを削減できる事も強調されていました。(これは売り込みではなく、実際のデータに基づく説明でした)
pub/subとの連携
pub/subはクラウドネイティブなグローバルパーティションレスインフラストレクチャであり、組織はpub/subを使用してどこからでもデータを取得できる
また、昨年BiqQueryに直接データをストリーミングしてELTすることができるBigQuery Subscriptionを発表し、さらにGoogle Cloud Storageでも同様なことができるGoogle Cloud Storage Subscriptionも追加されています。
これにより、コストが削減され、さらに必要に応じてバッチ処理オプションを選択することで、さまざまな角度から柔軟性があがります。
また、pub/subでは、パブリッシャーとサブスクライバーにより、ポンプアップ(送り出し)が分離されているため、これらの新しいサブスクリプションを既存のトピックに添付できます。
これも、ユーザーが既存の投資を新しい根本的な方法で確実に活用できるようにするために、Googleが投資する方法の1つのようです。
Dataflow ML
また、Dataflow MLについても触れておりました。
Dataflow MLは、バッチ処理とストリーミング処理を統合し、機械学習のユースケースに適用できるようにする機能です。
ここで仰っていたことまとめます。
- わずか数行のコードで機械学習の推論を行うことができる Run inference 関数
- ビデオ ラピッドでのパイプトーチの精神学習や、Google独自のTensorFlow自動モデル更新など、さまざまな方法で推論を行うことができる モデルを継続的に更新できるため、リアルタイム推論が可能な限り良好になる
- Dataflow MLは機械学習のユースケースをより簡単に、より効率的に構築するための新しい機能
よって、Dataflow MLの活用例としては、下記のようにまとめることができます。
- リアルタイムの機械学習モデルの推論
- 大量のデータを処理する機械学習モデルのトレーニング
- さまざまな機械学習フレームワークをサポートする機械学習モデルの開発
DataflowとVertex AI
DataflowとVertex AIを組み合わせることで、機械学習のトレーニングとアクティベーションの両方に、真のエンドツーエンドのリアルタイムストリーミング、機械学習インフラストラクチャを実現できます。
具体的な機能
ここで伝えていた具体的な機能をまとめます。
- 機械学習エンジニアの生産性を向上させるための、完全なMLOpsサポートと頂点 AIパイプラインとの緊密な統合
- インフラストラクチャを管理する必要性を排除することで、組織がストリーミングの利点を簡単に理解できるようにする、適切なフィッティング、動的スケーリング、非対称スケーリング
- 遅れて到着するデータの処理を効率化する、遅延データ処理
- 動的な宛先による、コストと時間の削減
- 不正データの検出とデータサンプリングによる、信頼性の向上
事例
カナダのあるテレコム事業会社が、DataflowとVertex AIを組み合わせることで、データ処理時間を20分の1に短縮することに成功しました。
以下のメリットが得られることで実現した模様。
- 機械学習のトレーニングとアクティベーションをシームレスに行うことができる
- インフラストラクチャを管理する必要がないため、コストと時間の削減が可能
- 信頼性の向上
この組み合わせは、リアルタイムで機械学習を活用する必要があるユースケースに適しています。(不正検知、顧客行動分析、予測保守、など)
今説明してきた点は、Dataflowと Vertex AIを組み合わせることで、組織が機械学習をより効果的に活用できるための重要な要件と言えるでしょう。
まとめ
実際のセッションでは、3者間での会話や、具体的な企業での例なども当事者から聞いておりました。
ボリュームが多くなるので、割愛しますが、今回はリアルタイムデータの活用周りの知識を皆様に届けられたら嬉しいです。
このセッションの最後の話をまとめます。
機械学習モデルのトレーニングと運用を効率化するために、サイクルタイムの短縮とプラットフォームの統合がとても重要である。 現在の機械学習の課題は、モデルのトレーニングと運用のサイクルタイムが長いため、サイクルタイムを短縮するためには、信頼できるプラットフォームを活用することが重要。
- プラットフォーム側の機能の重要性
- バッチデータとストリーミングデータを統合して処理できること
- サードパーティのツールやサービスと連携できること
- スケーラブルで、大規模なデータセットを処理できること
- 監査可能で、ガバナンスが確保されていること
- さまざまなユースケースに対応できること
- プラットフォームを導入する際には、ユースケースを優先するのではなく、基盤を構築することが重要